#снижение вычислительной нагрузки30.04.2025
Переосмысление разреженного внимания: прорывы для эффективных больших языковых моделей с длинным контекстом
Исследователи из Эдинбурга, Cohere и Meta показали, что большие разреженные модели превосходят меньшие плотные при работе с длинным контекстом, предложив новые законы масштабирования и стандартизированные методы.